A case report on gendered biases in a Finnish healthcare AI assistant
이 논문은 핀란드 의료용 AI 어시스턴트에서 성별에 따른 편향이 발생하며, 특히 여성 관련 질의가 임상적 관련성 없이 육아나 생식 건강과 과도하게 연관되는 등 의학적 판단을 왜곡하는 심각한 문제를 발견했다고 요약할 수 있습니다.
193 편의 논문
이 논문은 핀란드 의료용 AI 어시스턴트에서 성별에 따른 편향이 발생하며, 특히 여성 관련 질의가 임상적 관련성 없이 육아나 생식 건강과 과도하게 연관되는 등 의학적 판단을 왜곡하는 심각한 문제를 발견했다고 요약할 수 있습니다.
이 논문은 방사선학적 반응, 순환 종양 DNA, 안전성 및 생존 데이터를 통합한 합성 종양학 임상시험 프레임워크를 개발하여, 생물학적으로 타당하고 분석적으로 일관된 효능 - 안전성 신호를 재현함으로써 의사결정 중심의 번역 의학 임상 데이터 과학을 위한 프로토타입을 제시했습니다.
이 논문은 30 일 사후 사망률 예측에서 전산단층촬영 (CXR) 원본 이미지와 전문가 요약 보고서를 비교한 결과, 원본 이미지가 더 높은 예측 성능을 보이며 보고서가 시각적 예후 정보를 완전히 대체하지 못함을 입증했습니다.
이 논문은 2017 년부터 2025 년까지 발표된 흉부 X 선 컴퓨터 비전 연구에 대한 체계적 검토와 과학계량 분석을 통해, 고소득 국가와 특정 기관이 연구 주도권과 데이터 원천을 독점하고 있어 다양한 인구를 대표하지 못하는 심각한 불평등이 존재함을 규명하고, 이로 인한 AI 시스템의 편향과 의료 격차 심화 위험을 경고합니다.
이 연구는 행동건강위기센터의 환경적 안전 위험에 대한 환자 및 돌봄 제공자의 인식과 인공지능 (AI) 기반 위험 평가 간의 일치성과 차이를 다방법론으로 분석하여, AI 도구가 비전문가의 안전 위험 평가 및 시설 선택 의사결정을 지원하는 데 유용함을 입증했습니다.
본 연구는 의료 학술지 동료 심사자들이 인공지능 챗봇에 대한 높은 친숙도를 보이지만 윤리적 우려와 신뢰 문제로 실제 활용은 제한적이며, 향후 도입을 위해 교육과 가이드라인 마련이 필요함을 밝힌 대규모 국제 설문조사 결과입니다.
이 논문은 전자의무기록과 청구 데이터를 연계한 고처리량 관찰 연구 워크플로우를 통해 수천만 건의 치료 효과 평가를 표준화하여 분산된 연구 대신 포괄적인 증거 기반을 구축하고 정밀의학 실현을 지원한다는 점을 제시합니다.
이 논문은 불균형 데이터와 누락된 값을 처리하기 위해 베이지안 앙상블과 빈도 적응형 게이트를 결합한 새로운 모델이 수술 후 사망률 예측에서 검증 세트에서 100%의 정확도를 달성하고 전체 코호트 감사에서도 높은 민감도와 100%의 정밀도를 보이며 불확실성 기반 분류를 통해 임상적 유용성을 입증했다고 요약할 수 있습니다.
이 논문은 대규모 사전 학습 없이도 실시간으로 의료 코드를 학습하고 인구통계학적 변수를 후기 융합하여 질병 위험 예측 성능을 높이고 해석 가능한 임상 경로를 도출할 수 있는 경량 종단간 시계열 인코더 모델인 TELF 를 제안하고, 다양한 실제 의료 데이터셋에서 기존 머신러닝 모델보다 우수한 성능을 입증했습니다.
이 연구는 7,081 명의 성인을 대상으로 한 대규모 분석을 통해 음성 기반 생물학적 시계가 기존 노화 지표와 유사한 정확도를 보이며, 비만 및 심혈관 위험 등 노화 관련 건강 상태를 예측하는 확장 가능하고 비침습적인 생체 지표임을 입증했습니다.
이 논문은 CAP 표준에 부합하는 엄격한 스키마를 기반으로 로컬 LLM 을 활용하여 다양한 암종에 대한 수술 병리 보고서를 자동 추출하고, 개인 정보 보호가 보장된 온프레미스 환경에서 등록 및 분석을 위한 신뢰할 수 있는 프레임워크를 제안합니다.
본 연구는 CD276 이 뇌수막종의 생물학적 특성과 연관되어 있으나 단일 유전자 예측자나 지배적인 분류 특징으로는 부족하며, 보다 광범위한 다유전자 전사체 구조 내에서 해석되어야 함을 내부 개발 및 외부 검증을 통해 입증했습니다.
본 논문은 임상 텍스트 기반 이동성 기능 상태 추출을 위해 세 가지 대형 언어 모델 (LLM) 의 재현성과 강건성을 평가하고, 온도 설정 및 프롬프트 변형이 안정성에 미치는 영향을 분석하며, 다수결 투표 기반 자기 일관성 기법이 신뢰성을 크게 향상시킬 수 있음을 입증했습니다.
이 연구는 기계 학습 모델을 활용하여 전자 건강 기록 (EHR) 데이터로부터 심부전 환자의 Kansas City Cardiomyopathy Questionnaire 점수를 임상적으로 유의미한 정확도로 추정하고, 이를 통해 환자 보고 결과의 누락을 보완하여 심부전 관리의 위험 계층화 및 인구 기반 평가에 기여할 수 있음을 입증했습니다.
본 연구는 비구조화된 임상 기록에서 사회적 결정 요인 (SDoH) 을 추출하기 위해 규칙 기반 시스템과 최신 대규모 언어 모델 (LLM) 을 비교 평가한 결과, LLM 기반 접근법이 더 우수한 성능을 보였으며 두 방법을 결합한 앙상블 방식이 도메인 수준의 정확도를 더욱 향상시켰음을 입증했습니다.
이 논문은 50 만 건의 익명화된 임상 기록을 기반으로 Qwen3-4B 모델을 지도 학습으로 계속 사전 학습 (Supervised Continued Pretraining) 하여, 의료 전문 지식을 습득하면서도 일반 도메인 능력을 유지하고 다양한 임상 태스크에서 더 큰 규모의 비전공 모델보다 우수한 성능을 보임을 입증했습니다.
이 논문은 외부 중재자 없이 피어 LLM 에이전트 간의 반복적 합의 메커니즘을 통해 의료용 대규모 언어 모델의 환각 현상을 줄이고 사실적 정확도를 획기적으로 향상시킨 자율적 프레임워크 'Med-ICE'를 제시합니다.
본 논문은 NHANES 데이터를 기반으로 구축된 MedResearchBench 를 통해 6 가지 의료 AI 연구 시스템을 평가한 결과, 인용 오류가 성공의 결정적 요인임을 발견하고, 프로그램 기반 인용 검증 및 다중 에이전트 품질 보증이 단순한 LLM 평가의 한계를 극복하고 신뢰할 수 있는 학술 작성으로 이어질 수 있음을 실증했습니다.
이 논문은 암 환자 온라인 지원 텍스트에서 심리사회적 부담을 분석한 결과, 복합 부담 예측에 단일 작업 학습이 효과적이었으나 보조 태스크 추가는 성능을 저하시켰고, 인간 라벨 기반의 하드 라벨 지도 학습이 LLM 기반의 소프트 라벨 학습보다 감정 분류에서 더 우수함을 밝혔습니다.
본 연구는 18 명의 성인 자폐증 환자와 신경 전형 성인의 모음 음향 데이터를 기반으로 머신러닝 모델을 훈련하여 자폐증과 신경典型을 89% 의 정확도로 구분할 수 있음을 입증하고, 특히 기본 주파수 (F0) 가 가장 중요한 예측 변수임을 확인했습니다.